Pandas学习之

2024-06-14 14:01| 来源: 网络整理| 查看: 265

1 数据获取

先引入必要的库

import pandas as pd import numpy as np 1.1 读取数据

使用方法：pandas.read_csv() 参数：（1）文件所在的路径（2）headers：设置参数headers=None，pandas将不会自动将数据集的第一行设置为列表表头（列名）

other_path = "https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DA0101EN/auto.csv" df = pd.read_csv(other_path, header=None) 查阅数据集的前n行，使用函数df.head(n);查阅数据集的倒数后n行，使用函数df.tail(n) df.head(5)

输出：

在这里插入图片描述

df.tail(10)

输出：在这里插入图片描述

1.2 为数据集添加列名（表头）

观察上面读取出来的部分数据，pandas自动将列名（表头）设置为从0开始的数字标签。在这里插入图片描述需要我们手动添加能够帮助我们更好理解数据的列名：

首先创建出一个列表headers，里面内容就是每列的名称，然后使用方法：df.columns = headers来将列名替换成我们刚才设置的。

headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style", "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type", "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower", "peak-rpm","city-mpg","highway-mpg","price"] df.columns = headers df.head(10)

输出：在这里插入图片描述

1.3 删除某些具有空值的“脏数据” 观察上面的部分数据，发现有一些值为“？” 的行代表空值，首先需要先将这些“？”标志替换为NaN,然后使用方法dropna()来移除这些脏数据。 df1=df.replace('?',np.NaN) 下面使用方法dropna来删除脏数据行。

关于方法dropna（）：参数：（1）axis： default 0指删除行,1为删除列（2）subset：对特定的列进行缺失值删除处理（3）how： {‘any’, ‘all’}, default ‘any’指带缺失值的所有行;'all’指清除全是缺失值的（4）thresh：int,保留含有int个非空值的行（5）inplace：True表示直接在原数据上更改

df=df1.dropna(subset=["price"], axis=0) df.head(20)

上面的调用，表示，删除“price”列为空值的行。

输出：

在这里插入图片描述可以看出，原来行9的“price”列为空值，所以行9被删除。